中兴Mariana技术:突破显存限制,加速大模型推理效率 随着大语言模型(LLM)在各行业的广泛应用,一个日益凸显的问题是推理效率与显存成本之间的紧张关系。特别是在LLM推理过程中,KV Cache(键值缓存)技术作为加速生成速度的关键手段,却因其显存消耗的巨大而成为了限制模型规模扩展和并发能力提升的重要因素。每增加 模型 推理 显存 mariana mariana技术 2025-08-26 15:04 3